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摘要 : 


【 目的 】 借 助 深度 学 习 理 论 , 解决 传统 特征 选择 方法 容易 导致 特征 项 不 明确 、 分 类 精度 下 降 的 问题 。[ 方 


法 】 对 中 文 新 闻 文 本 进行 分 类 时 , 使 用 降 品 自动 编码 器 构建 一 个 深层 网 络 来 学 习 对 文本 的 压缩 及 分 布 式 的 表示 ， 
并 在 网 络 最 后 一 层 采 用 SVM 算法 将 其 分 类 到 具体 的 类 别 中 去 。[ 结果 】 随 着 样本 数目 的 增 大 ,分 类 准确 率 、 召 
回 率 和 下 值 都 在 上 升 , 且 比 KNN 算法 、BP 算法 和 SVM 算法 取得 了 更 优 的 分 类 效果 , 平均 分 类 准确 率 达 到 95% 


以 上 。[ 局 限 ] 数据 量 依然 较 小 , 且 并 没有 完全 发 挥 深度 学 习 并 行 处 理 大 容量 数据 的 优势 。[ 结论 】 该 方法 能 提 


高 特征 项 提取 的 准确 性 ,并 能 提高 分 类 效果 。 
关键 词 : 降 品 自动 编码 器 “支持 向 量 机 
分 类 号 : G350 


特征 提取 ”文本 分 类 


1 3 引 


言 息 技术 的 飞速 发 展 , 使 得 海量 的 信息 数据 以 指 
数 级 的 模式 不 断 增长 , 标志 着 大 数据 时 代 的 来 临 。 在 


Zl 


息 增 益 EJGnformation Gain, IG) 等 。 关 于 特征 选择 方法 
的 相关 研究 外 表明 : 1G 方法 的 性 能 相对 较 好 。 特征 提取 
方法 能 够 从 原 特征 集中 构造 或 者 合成 新 的 特征 项 ， 从 
而 降低 文本 特征 的 空间 维度 , 研究 人 员 先 后 提出 了 许 


此 背景 下 ,对 海量 文本 信息 的 有 效 组 织 与 利用 显得 万 
为 重要 。 文 本 分 类 技术 以 其 对 海量 信息 高 效 、 准 确 地 
管理 和 定位 的 优势 被 广泛 应 用 在 社会 生活 的 各 个 领 
域 , 并 取得 了 长 足 的 发 展 。 

在 文本 分 类 过 程 中 ,一 般 采 用 向 量 空 间 模型 
(Vector Space Model, VSM) 对 文本 进行 表示 。 而 文本 数 
据 结 构 和 语义 的 复杂 性 , 使 得 经 分 词 、 删 除 停 用 词 后 
的 特征 癌 量 空间 维度 依然 很 高 , 需要 对 其 进一步 优 
化 。 最 常用 的 方法 就 是 进行 降 维 操作 ， 降 维 之 后 文本 
分 类 器 要 处 理 的 文本 数据 规模 大 大 降低 , 噪声 也 大 大 
减少 特征 降 维 的 常用 方法 有 : 特征 选择 和 特征 提取 。 


多 不 同 的 特征 提取 方法 ,如 互 近邻 聚 类 算法 口 、 最 大 
模型 四 等 。 虽 然 这 些 传统 的 特征 选择 或 提取 方法 能 识 
别 出 大 部 分 特征 , 但 是 也 普遍 存在 着 特征 识别 度 较 差 
的 问题 。 如 指定 类 别 中 很 少 出 现 但 在 其 他 类 别 中 频繁 
出 现 的 特征 可 能 会 被 选择 出 来 ,进而 导致 特征 项 丢失 ; 
而 经 过 提取 后 的 特征 可 能 会 出 现 误差 ,因而 不 能 准确 
代表 原 有 数据 集 , 尤其 是 从 数据 量 较 大 、 维 数 较 多 的 
数据 集中 提取 出 的 特征 项 , 更 容易 出 现 误 差 . 最 后 导 
致 分 类 精度 下 降 。 

2006 年 ，Hinton 等 站 介绍 自动 编码 器 (Auto Encoder, 
AE) 构 建 的 深度 网 络 在 图 像 和 文本 的 特征 降 维 方面 的 


特征 选择 一 般 采 用 基于 统计 的 方法 , 得 到 的 特征 集 是 
原始 特征 集中 的 一 个 子 集 , 常见 的 有 卡 方 检验 门 
(CHI-Square) 、 互 信息 外 (Mutual Information, MD)、 信 


应 用 , 取得 了 比 传统 的 特征 降 维 方法 更 优 的 效果 。 
此 , 学 者 纷纷 将 AE 应 用 到 特征 提取 过 程 中 , 并 不 断 提 
出 稀 朴 自动 编码 器 中 (Sparse Auto Encoder, SAE) 、 降 噪 
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自动 编码 器 BIDenoising Auto Encoder DAE) 和 卷 积 
动 编码 器 0(Convolutional Auto Encoder CAE) 等 不 同 
改进 算法 。 其 中 ， DAE 在 特征 提取 中 的 应 用 较为 广泛 ， 
主要 应 用 于 对 动态 视频 纹理 (1、 音 频 中 9、 图 像 中 的 特 
征 提取 中 , 在 医学 诊断 趾 中 也 有 所 应 用 。 本 文 只 对 
DAE 在 文本 特征 提取 中 的 应 用 进行 深入 人 研究 。 

文本 中 存在 许多 噪声 ,影响 着 分 类 的 精度 。 因 此 
相关 学 者 选择 采用 DAE 进 行文 本 特征 的 提取 ， 如 刘 其 
等 中 针对 短文 本 的 特点 , 提出 一 种 基于 深层 DAE 的 特 
征 提取 及 聚 类 算法 ,， 有 效 地 解决 了 短文 本 空间 向 量 的 
高 维 、 稀 玖 问题 ; 秦 胜 君 等 (9 通过 改进 DAE, 实现 了 
无 监督 的 样本 分 类 ,对 不 平衡 率 较 高 的 样本 具有 良好 
的 适应 性 。 虽 然 这 部 分 研究 相对 较 少 , 但 是 可 以 看 到 ， 
DAE 构 建 的 深度 网 络 能 够 针对 文本 数据 中 噪声 较 大 的 
寺 点 ,提取 出 更 加 准确 地 代表 原始 文本 的 特征 编码 ， 
并 有 效 去 除 其 中 的 噪声 ， 再 结合 分 类 算法 进行 文本 分 
类 时 能 够 大 大 提高 分 类 准确 率 。 

与 文献 [15-16] 不 同 , 本 文 将 DAE 应 用 到 新 闻 文 本 
的 特征 提取 中 , 首先 使 用 DAE 构 建 深度 网 络 自 动 学 习 
得 到 文本 的 低 维 特征 ; 然后 在 网 络 的 最 顶层 采用 线性 
分 类 器 支持 向 量 机 (Support Vector Machine, SVM) 算 法 
对 得 到 的 低 维特 征 编 码 进行 分 类 输出 , 根据 输出 的 结 
果实 现 分 类 ; 最 后 分 别 与 K 近 邻 区 -Nearest Neighbors， 
KNN) 算 法 .SVM 算法 和 反 向 传播 神经 网 络 (Error Back 
Propagation, BP) 算 法 进行 比较 , 证 明 此 方法 的 有 效 性 。 


2 相关 理论 基础 


2.1 基于 DAE 的 特征 提取 

AE[ 2 构造 的 是 一 种 无 监督 的 深度 网 络 结构 ,， 首 
先 经 过 无 监督 的 逐 层 贪心 预 训 练 与 系统 性 的 参数 优 
化 , 得 到 多 层 非 线性 网 络 , 然后 利用 此 网 络 从 无 类 标 
数据 中 提取 出 高 维 复杂 输入 数据 的 分 层 特征 ， 并 得 到 
原始 数据 的 分 布 式 特征 表示 , 能够 比较 好 地 复 现 输 入 
的 数据 信号 。AE 主要 由 两 个 部 分 组 成 : 编码 器 和 解码 
器 ,结构 示意 图 如 图 1 所 示 : 


图 1 AE 结构 示意 图 


但 是 , AE 无 法 消除 数据 中 的 噪声 干扰 。 为 了 消除 
噪声 干扰 ， 获 得 更 加 鲁 棒 的 特征 ，Vincent 等 中 提出 可 
以 用 概率 分 布 (通常 使 用 二 项 分 布 ) 随 机 处 理 原 始 输入 
和 矩阵。， 对 原始 数据 进行 破坏 处 理 得 到 又 ,然后 对 叉 
进行 编码 处 理 ， 后 续 过 程 即 与 AE 的 运算 过 程 相 同 , 此 
改进 后 的 编码 器 即 为 降 噪 自动 编码 器 ,结构 示意 图 如 
图 2 所 示 : 


图 2 降 品 自动 编码 器 结构 模型 示意 图 
编码 器 f(%) 用 于 高 维 数 据 的 降 维 ， 首先 对 输入 向 


量 x 进 行 破坏 处 理 得 到 多 ,然后 输入 到 编码 器 f(%) ， 
经 过 线性 变换 和 激活 函数 的 作用 ,最 后 得 到 隐 含 的 编 
码 结果 y。 解 码 右 g(y) 用 于 低 维 编码 的 重 构 过 程 ， 即 将 
隐 含 层 数据 映射 回 重 构 z 分 别 表示 为 如 下 函数 : 


y=f(X%)=Sr(WX+b,) (1) 


z=g(y) =Se(W'y+b;) O) 
其 中 , St 是 非 线性 激活 函数 ， 其 表达 式 为 : 


. 5 1 
Sr = Sigmoid(y) = 一 一 一 
1+e 


G) 


Ss 是 解码 器 的 激活 函数 , 本 文 也 采用 sigmoid 画 
数 ，W'= W!, 是 W 的 转 置 , 因此 只 需要 训练 W 即 可 ， 
by 和 bz 是 偏 倚 向 量 。 

DAE 的 训练 过 程 即 是 在 训练 样本 集 D 上 寻找 参 
数 06={fW,bybz} 的 最 小 化 重 构 误 差 , 重 构 误 差 的 表 
达 式 如 下 : 


JAgE= 3 L(x,g(f(%))) (4) 
xeD 
其 中 , L 为 重 构 误差 印 数 , 文献 [19] 表 明 在 实验 过 


程 中 , 交叉 炉 损 失 函 数 一 直 优 于 平方 差 损 失 函 数 ， 
此 本 文采 用 交叉 焙 损 失 函 数 ， 表 达 式 如 下 : 


dx 
L(x,z)= -Dla +(1—xi)In(1—z;)] (5) 
is 


其 中 , n 是 训练 集 样本 数 , xs 是 第 i 个 输入 , z; 为 对 
应 的 第 i 个 解码 重 构 后 的 数据 。 

自动 编码 器 采用 经 典 的 随机 梯度 下 降 算法 进行 
训练 , 在 每 个 迭代 过 程 中 , 利用 公式 (6) 更 新 权重 矩阵 : 
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其 中 ， 是 学 习 率 , b, 和 b; 采用 与 之 相同 的 更 新 
为 式 3 
2.2 ”基于 SVM 的 分 类 

SVM 算法 的 的 训练 过 程 是 要 找到 一 个 超 平面 ， 
使 得 这 个 超 平面 的 正 反 例 分 别 落 在 两 侧 , 在 所 有 超 平 
面 中 与 正 反 例 的 距离 最 大 且 到 最 近 的 正 反 例 的 距离 相 
等 , 然后 对 未 知 类 别 的 样本 数据 , 计算 其 位 于 超 平面 
一 侧 ， 即 为 其 分 属 的 类 别 。 

在 线性 可 分 的 情况 下 , 分 类 线性 方程 为 
(w:x)+b=0，, 对 此 方程 进行 正则 化 , 使 得 每 一 个 线 
性 可 分 的 样本 (x;,y;),i=1,2,…,1,xeR",y ef{-l,+l]}， 
均 满足 : 


yi[(w.xi)+b]-1 三 0 i=1,2,.…,1 (7) 
其 中 : x 是 输入 的 第 个 样本 , 1 为 样本 数 , w 是 可 调 
的 权 值 向 量 ,b 是 偏 置 。y; e 全 1 +1 表示 相应 xi 的 期 望 
分 类 。 
为 了 求 得 最 优 分 类 超 平 面 , 需要 在 满足 公式 (7) 下 
使 得 分 类 间隔 margin = 2/|| wl 最大， 即使 得 | w 咱 最 
小 , 这 是 一 个 典型 的 二 次 规划 问题 ,目标 函数 为 : 


i 
minw L(wb,0) =31 WP -Pol(w x)+b]-D (9) 
i=1 


利用 拉 格 朗 日 优化 方法 可 以 将 上 述 问 题 转化 为 
其 对 偶 问 题 ， 即 加 入 约束 条 件 》 fioiy;=0 和 
Qi 宇 0,i=1,2,…1，, 对 0 求解 下 列 函数 的 极 大 值 : 


1 
QW -D3 > oaiaj:yiyiGxi yi) (9) 
i=1 ij=1 


ai 过 0 为 与 每 个 样本 相对 应 的 拉 格 朗 日 稀 玻 ， 即 
训练 样本 中 仅 有 少数 的 拉 格 朗 日 系数 oi 不 为 0， 这 样 
的 样本 定义 为 支持 向 量 。 

在 最 优 分 类 面 中 采用 适当 的 核 函 数 就 可 以 实现 
某 一 非 线性 变换 后 的 线性 分 类 ， 而 计算 的 复杂 度 却 没 
有 增加 。 此 时 的 目标 函数 公式 (9) 变 为 : 


1/ 1 
1 
QGD = 之 一 wii yiyK(i, yi) (10) 
i=1 ij 过 


最 后 训练 后 的 相应 的 分 类 函数 为: 
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. 
d(x) = 》 yioiK(xi,x)+b (11) 
il 


即 支持 向 量 机 ,根据 d(x) 的 符号 来 确定 输入 样本 x 
的 归属 。 


3 DAS 文本 分 类 模型 

本 文 设 计 的 结合 DAE 和 SVM 算 法 的 中 文 新 闻 文 
本 分 类 模型 (简称 DAS 分 类 模型 )， 主 要 包括 6 个 部 分 ， 
即 NLPIR 文 本 分 词 、 去 除 停 用 词 、 文 本 表示 、DAE 特 
征 提 取 、SVM 分 类 和 分 类 效果 评价 ， 如 图 3 所 示 : 


NLPIR 除 DAE Ey. 分 类 
文本 上 二 | 停 上 一 特 件 于 | 类 [于 | 效果 
分 词 提取 评价 

词 


图 3 中 文 新 闻 文 本 分 类 模型 示意 图 


(1) 中 文 不 同 于 西 文 , 词 与 词 之 间 没 有 明显 的 分 
割 界限 ， 因 此 需要 对 中 文 文本 进行 特殊 的 分 词 操 作 。 
本 文采 用 比较 成 熟 的 NLPIR 汉 语 分 词 系统 P11 对 中 文 新 
闻 文 本 进行 分 词 操作 。 

(2) 经 过 步骤 (1) 分 词 后 形成 的 词语 有 大 量 的 停 用 
词 , 包括 标点 符号 和 一 些 对 分 类 不 起 作用 的 常见 词 等 ， 
本 文 收 集 多 个 停 用 词 表 后 合并 成 一 个 较 全 面 的 停 用 词 
表 , 用 来 剔除 这 些 停 用 词 ， 得 到 能 代表 文本 特征 的 候 
选 特征 词 。 

(3) 经 过 步骤 (2) 得 到 的 候选 特征 词 依然 很 多 , 维 
数 特别 大 ,需要 对 其 进行 初步 筛选 ,本 文通 过 信息 增 
益 算 法 对 文本 特征 进行 初步 筛选 后 ,采用 VSM 模 型 进 
行文 本 的 特征 表示 。 

(4) 将 经 过 步 又 (3) 得 到 的 特征 表示 输入 一 个 由 
DAE 构 建 的 深度 网 络 中 , 经 过 逐 层 训练 后 , 得 到 一 个 
维 数 比 较 低 的 特征 编码 。 

(5) 在 深度 网 络 的 最 后 一 层 , 用 SVM 算法 对 经 过 
步骤 (4) 得 到 的 特征 编码 进行 分 类 输出 ,根据 输出 结 
进行 分 类 。 

(6) 对 分 类 的 效果 进行 评价 , 并 根据 评价 结果 不 
断 地 对 此 文本 分 类 模型 进行 优化 ， 直 至 得 到 满意 的 分 
类 结果 。 

其 中 , 文本 分 类 中 最 基础 最 重要 的 工作 是 步骤 (4) 
特征 词 的 提取 ,而 文本 中 存在 大 量 的 多 余数 据 和 噪声 ， 
在 提取 特征 词 的 时 候 容 易 导 致 误差 的 产生 和 识别 度 较 
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差 的 问题 ,进而 影响 最 终 的 分 类 效果 。 要 想 取得 比较 
好 的 分 类 效果 , 需要 将 这 些 宛 余数 据 或 噪声 的 影响 尽 
可 能 降低 到 最 小 。DAE 将 输入 数据 进行 破坏 处 理 后 ， 
利用 这 些 破损 数据 训练 出 来 的 特征 系数 噪声 比较 小 ， 
并 且 破 损 数据 在 一 定 程 度 上 能 够 减轻 训练 数据 与 测试 
数据 的 代沟 。 

因此 , 为 了 从 文本 中 提取 、 编 码 出 更 加 鲁 棒 的 特 
征 并 消除 噪声 的 影响 ,以 取得 较 好 的 分 类 效果 , 本文 
借鉴 相关 理论 I"” ,将 DAE 应 用 到 中 文 新 闻 文 本 特 
征 词 的 提取 中 , 构建 一 个 深度 网 络 , 逐 层 训 练 得 到 一 
个 低 维 的 特征 编码 , 提取 出 最 能 代表 文本 的 低 维特 征 ， 
实现 高 维 文本 数据 的 特征 降 维 过 程 ,并 利用 SVM 算 
法 在 深度 网 络 的 最 顶层 对 输出 的 低 维 编码 进行 分 类 输 
出 , 根据 输出 的 结果 实现 最 终 的 分 类 过 程 。 基 于 DAE 
和 SVM 构建 的 深度 网 络 如 图 4 所 示 : 


es PR 


el | 
: 


类 别 标签 
图 4 分 类 训练 过 程 
其 中 , 文本 候选 词 首先 经 过 由 多 层 DAE 构 成 的 隐 
层 处 理 后 ,得 到 低 维 编码 , 在 最 顶层 由 LibSVM 对 低 维 
编码 进行 分 类 输出 , 根据 分 类 输出 的 结果 进行 微调 ， 


实现 整个 文本 分 类 模型 的 训练 过 程 。 
4 仿真 实验 


4.1 仿真 实验 步骤 

(1) 实验 1: 经 典 实验 

为 了 测试 本 文 DAS 分 类 模型 的 优越 性 ,在 相同 
的 数据 集 上 , 采用 信息 增益 的 特征 选择 方法 选择 出 特 
征 后 ,采用 经 典 的 训练 算法 ， 分 别 为 KNN 算法 、SVM 
算法 和 只 包含 一 层 隐 藏 神经 元 的 BP 神经 网 络 算法 ， 
进行 分 类 仿真 实验 , 并 将 其 分 类 召回 率 、 准 确 率 和 F 
值 与 本 文 DAS 分 类 模型 进行 比较 。 采 用 经 典 算法 作对 
比 仿真 实验 的 具体 步 又 如 下 : 

@ 选 择 仿真 实验 数据 集 。 仿 真实 验 的 新 闻 文本 数据 集 加 ] 
由 复旦 大 学 计算 机 信息 与 技术 系 李 荣 陆 提供 ， 数据 集 标注 
比较 规范 ,规模 适中 ,适合 中 小 型 的 分 类 仿真 实验 。 


此 数据 集中 answer 分 组 为 测试 语 料 ， 共 9 833 篇 文档 ， 
train 分 组 为 训练 语 料 ， 共 9 804 篇 文档 , 分 为 20 个 类 别 。 随 
机 选取 6 个 类 别 , 每 个 类 别 1 000 篇 , 分别 以 200 篇 .400 篇 、 
600 篇 、800 篇 设置 4 组 训练 集 ， 其 中 每 组 都 以 200 篇 作为 
测试 集 ， 分别 进行 训练 。 有 具体 类 别 信 息 及 实验 分 组 设计 如 表 
1 所 示 : 


表 1 文本 分 类 实验 具体 类 别 信息 及 分 组 设计 


训练 集 (4 组 ) 测试 集 
C01 Computer 200、400、600、800 200 
C02 Environment 200、400、600、800 200 
C03 Agriculture 200、400、600、800 200 
C04 Economy 200、400、600、800 200 
C05 Politics 200、400、600、800 200 
C06 Sports 200、400、600、800 200 


人 @) 文 本 数据 集 的 预 处 理 包 括 文本 分 词 和 去 除 停 用 词 。 文 
本 分 词 采用 的 NLPIR 汉语 分 词 系统 ， 其 主要 功能 包括 中 文 
分 词 、 词 性 标注 、 命 名 实体 识别 、 用 户 词典 功能 、 微 博 分 词 、 
新 词 发 现 与 关键 词 提取 等 ,是 国内 比较 成 熟 、 用 户 较 多 的 中 
文 文本 分 词 系统 。 本 文 对 文本 语义 特征 进行 分 析 ， 并 综合 网 
络 上 的 停 用 词 表 , 制作 了 一 个 比较 全 面 的 停 用 词 表 ,如 表 2 
所 示 : 


表 2 停 用 词 表 
标点 符号 ”特殊 符号 “无 意义 词 数字 西 文字 符 
< 的 1 Al(a) 
> 响 2 B(b) 
/ 一 个 3 C(c) 
@ 你 4 D(d) 
过 本 文 5 E(e) 


(国文 本 表示 ,经 过 预 处 理 后 的 文本 维 数 过 大 ,需要 对 其 
进行 初步 的 降 维 处 理 ， 计 算 每 个 特征 词 的 信息 增益 值 ， 公式 
如 下 : 


IGo = D» Pee) logPe) + i logRtelb + 
is i=l (12) 
了 Pe ID logPee rt) 
其 中 ,m 为 总 类 别 数 , ci 代表 类 别 ，P(。) 为 类 别 ci 出 现 的 
概率 ; Pw 为 包含 特征 词 的 文档 的 概率 ，PT) 为 不 包含 特征 词 
的 文档 的 概率 ; Pi) 为 包含 特征 t 属于 ci 的 概率 PL.t) 为 


包含 特征 t 但 属于 c; 的 概率 。 
计算 出 信息 增益 值 后 , 将 其 按 大 小 排序 并 保留 前 5 000 
个 特征 词 用 向 量 空间 模型 表示 ， 如 表 3 所 示 。 
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表 3 文本 特征 集 的 向 量 空间 模型 表示 
特征 词 


文本 a 3 
di Wi1l Wj Win 
d Wil Wi Win 
dm Wml " Wmj Da Wmn 


在 该 特征 词 矩 阵 中 , n 表示 所 有 文档 中 的 特征 词 总 数 ， 
每 个 特征 词 对 应 特征 空间 中 的 一 维 ; m 代表 所 有 待 分 类 的 文 
本 数 ; 将 每 个 文档 表示 成 N 维 空间 中 的 一 点 ， 如 : 
V(d) = (win (bwi) (toowik) (twin)， 特 征 权 
重 值 wi 为 每 个 特征 词 的 TF-IDF 值 ， 计算 公式 如 下 : 
tf(r,a) Xlog(N /nt +a) 


je xlog(GN/n +a)y 


ted 


Wu.d = (13) 


其 中 , Wud 为 特征 词 { 在 文本 d 中 的 权重 ; tftd 表 示 词 条 
t 在 文档 d 中 出 现 的 频数 ; nt 为 文本 集中 含有 特征 t 的 文本 的 
数量 ; log(Nnita) 为 逆 文 本 频率 函数 , ni 越 大 此 值 越 小 , a 为 一 
个 常量 ， 本文 取 0.01; 分 母 是 一 个 归 一 化 因子 。 

@ 分 类 训练 。 利 用 分 类 算法 进行 有 监督 的 分 类 训练 ， 得 
到 分 类 参数 ， 并 用 测试 数据 集 进行 分 类 测试 。 本 文选 择 的 算 
法 分 别 为 : KNN 算法 ， 此 算法 相对 比较 简单 ,用 C 语言 自主 
设计 的 KNN 算法 ; SVM 算法 ， 采 用 比较 成 熟 的 LibSVM 进行 
分 类 实验 ; BP 算法 , MATLAB 自 带 的 成 熟 的 神经 网 络 工具 箱 。 

@@ 分 类 效果 评价 与 比较 。 采 用 召回 率 R(Recall)、 准确 率 
POPrecision) 和 下 值 对 最 终 的 分 类 结果 进行 评价 。 公 式 如 下 : 

M 


= 14 
M+T U9 
M 
三 15 
M+N 03) 
F- 2xRxP (0 
R+P 


其 中 ，M 为 正确 分 类 到 该 类 的 文本 数 ，N 为 错 分 到 该 类 
中 的 文本 数 ,T 为 属于 该 类 却 错 分 为 别 类 的 文本 数 。 

(2) 实验 2: 优化 实验 

本 文 设计 的 DAS 分 类 模型 用 于 新 闻 文 本 分 类 的 
仿真 实验 的 步骤 -步骤 @ 和 步骤 @ 都 与 经 典 实验 完 
全 相同 ， 只 有 步骤 由 分 类 训练 与 经 典 实验 步骤 不 同 。 

在 本 文 设 计 的 DAS 分 类 模型 中 , 将 训练 文本 数据 
集 经 过 步骤 中- 步骤 @， 得 到 天 阵 表示 后 ,输入 一 个 
DAE 构建 的 深度 网 络 , 用 非 监 督学 习 方 法 对 5 000 维 
的 特征 进行 逐 层 的 降 维 操作 , 并 在 最 后 一 层 采用 线性 
分 类 需 SVM 算法 对 文本 进行 分 类 输出 , 根据 输出 结 
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果 调 整训 练 过 程 中 的 各 个 参数 ,得 到 最 终 分 类 参数 后 
利用 测试 数据 集 进行 测试 。 

@ 特 征 降 维 。 将 文本 的 向 量化 矩阵 表示 X 先 经 过 破坏 
处 理 得 到 短 阵 文 ， 然 后 将 破坏 后 的 矩阵 文 输入 到 编码 器 得 
到 编码 ， 再 经 过 解码 器 重 构 得 到 一 个 重 构 答 阵 ， 将 重 构 矩阵 
与 原始 和 矩阵 比较 得 到 重 构 误 差 ， 调 整编 码 器 和 解码 器 的 参 
数 使 得 重 构 误 差 最 小 ,得 到 最 终 的 编码 。 将 上 层 中 得 到 的 编 
码 特 征 作 为 下 层 的 输入 , 采用 相同 的 方法 得 到 下 层 的 编码 ， 
如 此 不 断 进行 , 得 到 规定 数量 层 数 的 编码 。 

本 文 设计 的 深层 次 网 络 的 节点 数 分 别 为 5000- 
2500-1200-600-300-100-50-20， 加 上 最 终 的 线性 分 类 器 SVM 
共 9 层 ， 先 对 每 层 的 矩阵 表示 经 过 一 个 随机 化 置 0 的 过 程 ， 
再 进行 训练 , 每 层 训 练 结 束 后 继续 训练 下 一 层 ， 直 到 完成 降 
骂 自 编码 器 的 降 维 过 程 。 

@ 有 监督 微调 。 将 步骤 四 得 到 的 20 维 的 特征 编码 ， 应 
用 SVM 算法 对 其 进行 分 类 输出 ， 然 后 根据 输出 的 结果 分 
类 。 再 对 各 层 的 系数 进行 微调 。 此 监督 训练 完成 后 ， 即 用 来 
对 测试 集 的 文本 进行 分 类 ， 以 测试 这 个 分 类 系统 的 有 效 性 。 

本 文采 用 LibSVM 算法 对 每 个 文本 降 维 后 获取 到 的 特 
征 编码 进行 分 类 ,然后 用 BP 算法 从 顶层 向 下 进行 各 层 系 数 
的 微调 ,最 终 取得 调整 后 的 系数 ， 即 可 用 来 对 测试 数据 集 进 
行 测试 。 

4.2 ”实验 结果 与 分 析 

在 4 组 训练 集 下 分 别 进行 实验 , 得 出 分 类 召回 

率 、 准 确 率 与 F 值 的 情况 如 图 5 所 示 : 


200 400 600 800 
一 一 召回 率 (%) ~--- 准 确 率 (%) ”一 -FP 值 (%) 
图 5 分 类 召回 率 、 准 确 率 与 了 值 随 数据 集 
变化 的 曲线 图 


可 以 看 到 ，DAS 分 类 模型 随 着 训练 集 的 增 大 ,分 
类 召回 率 、 准 确 率 和 F 值 都 在 不 断 增 大 。 这 是 由 于 深度 
网 络 对 数据 集 的 数量 要 求 比较 高 , 过 小 的 数据 集会 导 
致 产生 过 拟 合 现象 从 而 导致 分 类 效果 从 佳 。 因 此 , 针 
对 深度 网 络 , 数据 集 的 大 小 能 够 决定 网 络 训练 的 效果 ， 
数据 集 越 大 ， 越 能 训练 得 到 较 好 的 分 类 效果 。 
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经 过 与 不 同 分 类 算法 比较 的 仿真 实验 , 得 出 4 组 
实验 下 各 算法 的 分 类 召回 率 .准确 率 和 F 值 如 表 4 至 表 6 
所 示 : 

表 4 不 同 训练 集 下 各 算法 的 分 类 召回 率 (%) 

算法 


KNN BP SVM DAS 
训练 集 
200 83.32 87.38 94.18 91.32 
400 84.54 89.57 93.73 92.11 
600 83.97 91.23 93.66 94.56 
800 84.21 93.85 93.89 95.42 
表 5 不 同 训练 集 下 各 算法 的 分 类 准确 率 (%) 
算法 
KNN BP SVM DAS 
训练 集 
200 87.68 90.32 93.01 93.28 
400 88.72 90.34 94.71 94.21 
600 86.35 92.15 93.78 95.34 
800 85.78 94.24 94.59 96.79 
表 6 不 同 训练 集 下 各 算法 的 分 类 下 值 (%) 
算法 
KNN BP SVM DAS 
训练 集 
200 85.44 88.83 93.59 92.29 
400 86.58 89.95 94.22 93.15 
600 85.14 91.69 93.72 94.95 
800 84.99 94.04 94.24 96.10 


KNN 算 法 在 训练 过 程 中 ,生成 所 有 训练 文本 的 特 
征 向 量 , 在 测试 过 程 中 ,比较 测试 文本 的 特征 向量 与 
所 有 训练 文本 特征 向 量 的 相似 度 , 在 中 小 型 的 分 类 实 
验 中 能 够 取得 不 错 的 效果 。 但 是 可 以 看 到 这 种 方法 在 
很 大 程度 上 依赖 于 选 出 的 特征 词 ， 如 果 选 出 的 特征 词 
代表 性 不 强 ， 分 类 效果 会 变 得 比较 差 , 也 可 以 看 到 ， 
KNN 算 法 取得 的 分 类 效果 比 其 他 算法 差 ; BP 算法 是 
种 典型 的 浅 层 神经 网 络 算法 ,能 够 反 向 传播 误差 , 将 
误差 分 挫 给 各 层 单元 , 进而 修正 各 单元 的 权 值 系数 ， 
完成 训练 过 程 。 但 是 BP 算法 往往 只 设计 三 层 的 网 络 ， 
在 训练 集 比较 少 的 情况 下 分 类 效果 较 差 ， 随 着 训练 集 
数目 的 增加 , 分 类 召回 率 、 准确 率 和 F 值 都 有 不 同 程度 
的 增加 ; SVM 算 法 的 训练 过 程 是 要 找到 一 个 超 平面 ， 
使 得 这 个 超 平 面 的 正 反 例 分 别 落 在 两 侧 , 在 所 有 超 平 
面 中 与 正 反 例 的 距离 最 大 且 到 最 近 的 正 反 例 的 距离 相 
等 ,然后 对 未 知 类 别 的 文本 , 计算 其 位 于 超 平面 的 一 
侧 ， 即 为 其 分 属 的 类 别 , 在 对 小 规模 样本 的 数据 集 的 
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处 理 中 颇 占 优势 , 但 是 对 大 样本 数据 集 的 分 类 效果 略 
差 ， 随 着 数据 集 的 增 大 ， 分 类 效果 并 没有 明显 提升 ; 
DAS 分 类 模型 利用 降 噪 自动 编码 器 无 监督 地 学 习 到 新 
闻 文 本 的 特征 编码 , 符合 人 脑 以 词 - 句 - 段 - 意 的 逐 层 
分 析 方 式 对 文本 的 理解 ,能够 更 精确 地 模拟 人 脑 对 文 
本 所 表达 的 意思 的 理解 过 程 , 因此 能 够 取得 更 好 的 分 
类 效果 ， 从 表 4 至 表 6 也 可 以 看 出 , 本 文 的 DAS 分 类 模 
型 分 类 效果 更 好 。 


S 结 语 


深度 学 习 已 经 在 学 术 界 、 工 业界 掀起 了 研究 热潮 ， 
并 取得 了 相当 大 的 成 果 。 本 文 借鉴 DAE 和 SVM 的 相 
关 理 论 , 设计 DAS 分 类 模型 , 将 DAE 构 建 的 深度 网 络 
应 用 于 中 文 新 闻 文 本 的 特征 降 维 过 程 中 , 并 在 深度 网 
络 的 最 顶层 用 SVM 进行 分 类 , 根据 分 类 的 结果 不 断 
微调 各 层 的 系数 ,最终 用 测试 数据 集 测试 分 类 效果 。 
结果 表明 ，DAS 分 类 模型 降低 了 新 闻 文 本 数据 中 噪声 
的 影响 , 分 类 效果 比较 好 , 能够 取得 比 KNN 、SVM 和 
BP 算法 更 好 的 分 类 效果 。 但 是 也 看 到 , 虽然 设置 了 4 
组 不 同 数据 集 的 仿真 实验 , 然而 数据 量 依 然 比较 小 , 并 
没有 完全 发 挥 深 度 学 习 并 行 处 理 大 容量 数据 的 优势 ， 
下 一 步 的 研究 工作 将 集中 在 对 大 数据 集 的 实验 上 。 
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Classifying Chinese News Texts with Denoising Auto Encoder 


Liu Hongguang Ma Shuanggang Liu Guifeng 
(Institute of Scientific & Technical Information, Jiangsu University, Zhenjiang 212013, China) 


Abstract: [Objective] This paper proposes a new method to improve the classification accuracy of the Chinese news 
texts with the help of Deep Learning theory. [Methods] We first used the denoising auto encoder to construct a deep 
network to learn the zipped and distributed representation of the Chinese news texts. Second, we used the SVM 
algorithm to classify these news texts. [Results] As the number of samples expanding, the precision rate, the recall rate 
and the F value of the proposed method increased too. The results are better than those of the applications using the 
KNN, BP and SVM algorithms. The average precision rate was higher than 95%. [Limitations] The data size was 
relatively small, thus, the proposed method did not fully utilize the parallel data processing capacity of the deep learning 
technology. [Conclusions] The proposed method improves the performance of applications classifying Chinese news 
texts. 
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